InforLorV4, Main, Exploration, bibRecord, 008690

Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données

Identifieur interne : 008690 ( Main/Exploration ); précédent : 008689; suivant : 008691

Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données

Auteurs : Martine Cadot [France] ; Amedeo Napoli [France]

Source :

Revue d'Intelligence Artificielle [ 0992-499X ] ; 2002.

RBID : ISTEX:FFE8F5ACCC21A6171F815FB60D1306294F273911

Abstract

Cet article présente un essai d’optimisation du jeu de règles extrait par la technique des motifs fréquents. Partant d’un tableau de données tiré d’un corpus de résumés d’articles scientifiques dans le domaine de la biologie moléculaire, on utilise les techniques usuelles d’extraction de règles d’association pour construire le jeu de règles associé aux données. On définit ensuite des règles « fortuites » par des techniques de simulation. On discute alors du choix de celles qu’il convient de supprimer afin d’optimiser le jeu de règles de départ. Les indices associés à des règles extraites de données s’appuient généralement sur le support et la confiance. On mentionne dans l’article les résultats obtenus avec d’autres indices de qualité des règles utilisés actuellement en fouille de données. Enfin, on se réfère aux propriétés statistiques des données afin de préparer la voie à une optimisation des jeux de règles extraits de bases de données variées, ce qui donne des pistes de prolongement à ce travail.

This paper presents a study on the optimization of the set of rules that can be extracted from a set of data using the requent itemset search methodology. The present experiment has been applied on a set of abstracts of biological texts. The association rules have been extracted using standard frequent itemsets level-wise search. A discussion holds on the pruning of the set of rules and on the possible optimization of the pruning of this rule set. As usual, support and confidence of rules are taken into account. In parallel, other rule quality criteria are introduced and discussed (referring mainly to statistics criteria). A comparison with the standard criteria used in the frequent itemset level-wise search is given together with a discussion on the possible interactions between all these criteria. Finally, perspectives of the present work are presented.

Url:

https://api.istex.fr/ark:/67375/HT0-N05G5NVP-P/fulltext.pdf

DOI: 10.3166/ria.16.631-656

Affiliations:

France

Links toward previous steps (curation, corpus...)

to stream Istex, to step Corpus: 003D42
to stream Istex, to step Curation: 003C97
to stream Istex, to step Checkpoint: 001B26
to stream Main, to step Merge: 008B46
to stream Main, to step Curation: 008690

Le document en format XML

<record><TEI wicri:istexFullTextTei="biblStruct"><teiHeader><fileDesc><titleStmt><title xml:lang="fr">Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données</title>
<author><name sortKey="Cadot, Martine" sort="Cadot, Martine" uniqKey="Cadot M" first="Martine" last="Cadot">Martine Cadot</name>
</author>
<author><name sortKey="Napoli, Amedeo" sort="Napoli, Amedeo" uniqKey="Napoli A" first="Amedeo" last="Napoli">Amedeo Napoli</name>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:FFE8F5ACCC21A6171F815FB60D1306294F273911</idno>
<date when="2002" year="2002">2002</date>
<idno type="doi">10.3166/ria.16.631-656</idno>
<idno type="url">https://api.istex.fr/ark:/67375/HT0-N05G5NVP-P/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">003D42</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">003D42</idno>
<idno type="wicri:Area/Istex/Curation">003C97</idno>
<idno type="wicri:Area/Istex/Checkpoint">001B26</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">001B26</idno>
<idno type="wicri:doubleKey">0992-499X:2002:Cadot M:une:optimisation:de</idno>
<idno type="wicri:Area/Main/Merge">008B46</idno>
<idno type="wicri:Area/Main/Curation">008690</idno>
<idno type="wicri:Area/Main/Exploration">008690</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title level="a" type="main" xml:lang="fr">Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données</title>
<author><name sortKey="Cadot, Martine" sort="Cadot, Martine" uniqKey="Cadot M" first="Martine" last="Cadot">Martine Cadot</name>
<affiliation></affiliation>
<affiliation wicri:level="1"><country wicri:rule="url">France</country>
</affiliation>
</author>
<author><name sortKey="Napoli, Amedeo" sort="Napoli, Amedeo" uniqKey="Napoli A" first="Amedeo" last="Napoli">Amedeo Napoli</name>
<affiliation></affiliation>
<affiliation wicri:level="1"><country wicri:rule="url">France</country>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series><title level="j" type="main">Revue d'Intelligence Artificielle</title>
<title level="j" type="abbrev">Rev. Int. Artificielle</title>
<idno type="ISSN">0992-499X</idno>
<idno type="eISSN">1958-5748</idno>
<imprint><publisher>Lavoisier</publisher>
<date type="published" when="2002-11">2002</date>
<biblScope unit="vol">16</biblScope>
<biblScope unit="issue">6</biblScope>
<biblScope unit="page" from="631">631</biblScope>
<biblScope unit="page" to="656">656</biblScope>
<biblScope unit="page-count">26</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
<idno type="ISSN">0992-499X</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt><idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc><textClass></textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Cet article présente un essai d’optimisation du jeu de règles extrait par la technique des motifs fréquents. Partant d’un tableau de données tiré d’un corpus de résumés d’articles scientifiques dans le domaine de la biologie moléculaire, on utilise les techniques usuelles d’extraction de règles d’association pour construire le jeu de règles associé aux données. On définit ensuite des règles « fortuites » par des techniques de simulation. On discute alors du choix de celles qu’il convient de supprimer afin d’optimiser le jeu de règles de départ. Les indices associés à des règles extraites de données s’appuient généralement sur le support et la confiance. On mentionne dans l’article les résultats obtenus avec d’autres indices de qualité des règles utilisés actuellement en fouille de données. Enfin, on se réfère aux propriétés statistiques des données afin de préparer la voie à une optimisation des jeux de règles extraits de bases de données variées, ce qui donne des pistes de prolongement à ce travail.</div>
<div type="abstract" xml:lang="en">This paper presents a study on the optimization of the set of rules that can be extracted from a set of data using the requent itemset search methodology. The present experiment has been applied on a set of abstracts of biological texts. The association rules have been extracted using standard frequent itemsets level-wise search. A discussion holds on the pruning of the set of rules and on the possible optimization of the pruning of this rule set. As usual, support and confidence of rules are taken into account. In parallel, other rule quality criteria are introduced and discussed (referring mainly to statistics criteria). A comparison with the standard criteria used in the frequent itemset level-wise search is given together with a discussion on the possible interactions between all these criteria. Finally, perspectives of the present work are presented.</div>
</front>
</TEI>
<affiliations><list><country><li>France</li>
</country>
</list>
<tree><country name="France"><noRegion><name sortKey="Cadot, Martine" sort="Cadot, Martine" uniqKey="Cadot M" first="Martine" last="Cadot">Martine Cadot</name>
</noRegion>
<name sortKey="Napoli, Amedeo" sort="Napoli, Amedeo" uniqKey="Napoli A" first="Amedeo" last="Napoli">Amedeo Napoli</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 008690 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 008690 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:FFE8F5ACCC21A6171F815FB60D1306294F273911
   |texte=   Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données
}}

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022

	Serveur d'exploration sur la recherche en informatique en Lorraine
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur la recherche en informatique en Lorraine

Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données

Une optimisation de l’extraction d’un jeu de règles s’appuyant sur les caractéristiques statistiques des données

Source :

Abstract

Links toward previous steps (curation, corpus...)

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri